XSKY 星辰天合存储解决方案构建自动驾驶高效数据平台
1自动驾驶 AI 学习场景工作流程
2自动驾驶 AI 学习系统中数据存储面临的挑战
海量数据规模时,数据平台的可用性和成本的持续优化 通常情况下,用户至少会有数十PB的数据量,以及对应的千亿级别的文件个数。在此背景下,存储系统的灵活扩容、集群最大支持规模、上传数据时至少 10GB/s 的高吞吐能力、易运维、存储成本优化,这些要求的交集就是对存储的挑战。
数据跨平台的交互要求
大部分用户会采用混合云的 IT 架构模型,数据在异构平台之间如何保证平滑流动,以及与第三方标注平台的数据交互如何做到数据权限精细控制也将成为新的挑战。
训练环节对存储效率的要求
构建在 K8S 下的分布式 GPU 训练机制,一次可训练数百万个小文件,需要存储能够提供足够高的数据吞吐带宽和低时延,来满足上层算力的效率要求。
3XSKY 数据存储方案如何应对场景要求
平滑兼容主流业务架构
很多自动驾驶行业客户的基础架构,是从公有云模式转变为混合云模式的。使用公有云时其自动驾驶 AI 训练的 Workflow 大多是围绕“对象存储+高性能文件存储”的存储组合来构建,实现业务应用的自动化编排;
转变为混合云模式后,XSKY 星辰天合承载的私有化数据平台,核心内容同样为 对象存储 + 高性能文件存储,避免对用户 Workflow 的变更,从而降低开发侧的重复投入。
满足业务场景的存储可用性
存储的可用性体现在灵活扩容、数据规模无上限、易于运维、跨平台能力,以及满足业务应用对存储性能的要求上。
灵活扩容,XSKY 星辰天合存储可支持按节点扩容和按集群扩容多模式;
易于运维,XSKY 星辰天合后台管理系统提供可视化界面,细粒度的告警模块,以及节点和数据的全面监控能力;
跨平台能力,XSKY 星辰天合对象管理平台(XEOS) 支持与国内外多家主流公有云存储的对接,满足数据平滑流动的要求。XSKY 星辰天合数据理系统(X3DS)支持在异构平台中复制、迁移数据(如对用户存量数据的可靠迁移);性能方面,尤其是数据训练阶段小文件“读多写少”的场景下,对存储的吞吐和时延有高要求,XSKY 星辰天合可通过XGFS 分布式文件存储,或是 XINFINI 星飞全闪存储一体机提供支持,不仅可满足 GPU 对数据抽取的严苛性能要求,同时由于 XGFS 和 XINFINI 是国内首款可支持 QLC 的分布式存储,能充分利用 QLC 的读写特征和成本优势,大幅降低用户部署成本。
多项针对场景的优化,提升训练效率 对象存储 List 性能优化,通过过滤及排序动作下沉、提高并发度等手段,减少传输和汇总开销,提升数据抽取的效率,以及高负载时集群的稳定性;
XGFS 分布式文件存储及全 NVMe 的 XINFINI 存储一体机,可分别通过软件交付或一体机交付的形式,为 GPU 训练环节提供高性能文件存储能力;
另外,还有即将到来的独立元数据查询服务、开放内容处理框架等大量新功能,可以提升数据预处理和数据筛选环节的业务效率。
海量数据存储的成本优化
XSKY 星辰天合存储具备数据全生命周期数据管理能力,其中存储分级+数据压缩功能可对数据进行多层存储,根据数据的热温冷,可自定义在多个池中自由流转。另外,高密节点,蓝光磁存储一体机,磁带归档等多种存储形态,可大幅优化用户存储成本。
4面向场景 XSKY 星辰天合持续进化
4面向场景 XSKY 星辰天合持续进化
END
扫码联系
售前专家
往期推荐